Our paper aims to analyze political polarization in US political system using Language Models, and thereby help candidates make an informed decision. The availability of this information will help voters understand their candidates views on the economy, healthcare, education and other social issues. Our main contributions are a dataset extracted from Wikipedia that spans the past 120 years and a Language model based method that helps analyze how polarized a candidate is. Our data is divided into 2 parts, background information and political information about a candidate, since our hypothesis is that the political views of a candidate should be based on reason and be independent of factors such as birthplace, alma mater, etc. We further split this data into 4 phases chronologically, to help understand if and how the polarization amongst candidates changes. This data has been cleaned to remove biases. To understand the polarization we begin by showing results from some classical language models in Word2Vec and Doc2Vec. And then use more powerful techniques like the Longformer, a transformer based encoder, to assimilate more information and find the nearest neighbors of each candidate based on their political view and their background.
translated by 谷歌翻译
Video paragraph captioning aims to generate a multi-sentence description of an untrimmed video with several temporal event locations in coherent storytelling. Following the human perception process, where the scene is effectively understood by decomposing it into visual (e.g. human, animal) and non-visual components (e.g. action, relations) under the mutual influence of vision and language, we first propose a visual-linguistic (VL) feature. In the proposed VL feature, the scene is modeled by three modalities including (i) a global visual environment; (ii) local visual main agents; (iii) linguistic scene elements. We then introduce an autoregressive Transformer-in-Transformer (TinT) to simultaneously capture the semantic coherence of intra- and inter-event contents within a video. Finally, we present a new VL contrastive loss function to guarantee learnt embedding features are matched with the captions semantics. Comprehensive experiments and extensive ablation studies on ActivityNet Captions and YouCookII datasets show that the proposed Visual-Linguistic Transformer-in-Transform (VLTinT) outperforms prior state-of-the-art methods on accuracy and diversity.
translated by 谷歌翻译
Transformers are among the state of the art for many tasks in speech, vision, and natural language processing, among others. Self-attentions, which are crucial contributors to this performance have quadratic computational complexity, which makes training on longer input sequences challenging. Prior work has produced state-of-the-art transformer variants with linear attention, however, current models sacrifice performance to achieve efficient implementations. In this work, we develop a novel linear transformer by examining the properties of the key-query product within self-attentions. Our model outperforms state of the art approaches on speech recognition and speech summarization, resulting in 1 % absolute WER improvement on the Librispeech-100 speech recognition benchmark and a new INTERVIEW speech recognition benchmark, and 5 points on ROUGE for summarization with How2.
translated by 谷歌翻译
半监督学习(SSL)通过利用大量未标记数据来增强有限标记的样品来改善模型的概括。但是,目前,流行的SSL评估协议通常受到计算机视觉(CV)任务的约束。此外,以前的工作通常从头开始训练深层神经网络,这是耗时且环境不友好的。为了解决上述问题,我们通过从简历,自然语言处理(NLP)和音频处理(AUDIO)中选择15种不同,具有挑战性和全面的任务来构建统一的SSL基准(USB),我们会系统地评估主导的SSL方法,以及开源的一个模块化和可扩展的代码库,以对这些SSL方法进行公平评估。我们进一步为简历任务提供了最新的神经模型的预训练版本,以使成本负担得起,以进行进一步调整。 USB启用对来自多个域的更多任务的单个SSL算法的评估,但成本较低。具体而言,在单个NVIDIA V100上,仅需要37个GPU天才能在USB中评估15个任务的FIXMATCH,而335 GPU天(除ImageNet以外的4个CV数据集中的279 GPU天)在使用典型协议的5个CV任务上需要进行5个CV任务。
translated by 谷歌翻译
视频实例细分(VIS)旨在在视频序列中对对象实例进行分类,分割和跟踪。最近基于变压器的神经网络证明了它们为VIS任务建模时空相关性的强大能力。依靠视频或剪辑级输入,它们的潜伏期和计算成本很高。我们提出了一个强大的上下文融合网络来以在线方式解决VIS,该网络可以预测实例通过前几个框架进行逐帧的细分框架。为了有效地获取每个帧的精确和时间一致的预测,关键思想是将有效和紧凑的上下文从参考框架融合到目标框架中。考虑到参考和目标框架对目标预测的不同影响,我们首先通过重要性感知的压缩总结上下文特征。采用变压器编码器来融合压缩上下文。然后,我们利用嵌入订单的实例来传达身份感知信息,并将身份与预测的实例掩码相对应。我们证明,我们强大的融合网络在现有的在线VIS方法中取得了最佳性能,并且比以前在YouTube-VIS 2019和2021基准上发布的剪辑级方法更好。此外,视觉对象通常具有声学签名,这些签名自然与它们在录音录像中自然同步。通过利用我们的上下文融合网络在多模式数据上的灵活性,我们进一步研究了音频对视频密集预测任务的影响,这在现有作品中从未讨论过。我们建立了一个视听实例分割数据集,并证明野外场景中的声学信号可以使VIS任务受益。
translated by 谷歌翻译
对对抗性攻击的鲁棒性通常以对抗精度评估。但是,该指标太粗糙,无法正确捕获机器学习模型的所有鲁棒性。当对强烈的攻击进行评估时,许多防御能力并不能提供准确的改进,同时仍会部分贡献对抗性鲁棒性。流行的认证方法遇到了同一问题,因为它们提供了准确性的下限。为了捕获更精细的鲁棒性属性,我们提出了一个针对L2鲁棒性,对抗角稀疏性的新指标,该指标部分回答了“输入周围有多少个对抗性示例”的问题。我们通过评估“强”和“弱”的防御能力来证明其有用性。我们表明,一些最先进的防御能力具有非常相似的精度,在它们不强大的输入上可能具有截然不同的稀疏性。我们还表明,一些弱防御能力实际上会降低鲁棒性,而另一些防御能力则以无法捕获的准确性来加强它。这些差异可以预测这种防御与对抗性训练相结合时的实用性。
translated by 谷歌翻译
引用视频对象分割(R-VOS)旨在分割视频中的对象掩码,并给出将语言表达式转介到对象的情况下。这是最近引入的任务,吸引了不断增长的研究关注。但是,所有现有的作品都有很大的假设:表达式所描绘的对象必须存在于视频中,即表达式和视频必须具有对象级的语义共识。在现实世界中,通常会违反这种表达式的虚假视频,并且由于滥用假设,现有方法总是在此类错误查询中失败。在这项工作中,我们强调研究语义共识对于提高R-VOS的鲁棒性是必要的。因此,我们从没有语义共识假设的R-VOS构成了一个扩展任务,称为Robust R-VOS($ \ Mathrm {R}^2 $ -VOS)。 $ \ mathrm {r}^2 $ - VOS任务与主R-VOS任务的联合建模及其双重问题(文本重建)基本相关。我们接受这样的观察,即嵌入空间通过文本视频文本转换的周期具有关系一致性,该转换将主要问题和双重问题连接起来。我们利用周期一致性来区分语义共识,从而推进主要任务。通过引入早期接地介质,可以实现对主要问题和双重问题的平行优化。收集了一个新的评估数据集,$ \ mathrm {r}^2 $ -Youtube-vos,以测量R-VOS模型针对未配对的视频和表达式的稳健性。广泛的实验表明,我们的方法不仅可以识别出无关表达式和视频的负面对,而且还提高了具有出色歧义能力的正对的分割精度。我们的模型在Ref-Davis17,Ref-Youtube-Vos和Novel $ \ Mathrm {r}^2 $ -Youtube-vos数据集上实现了最先进的性能。
translated by 谷歌翻译
尽管基于深度学习的语音增强系统在提高语音信号的质量方面取得了迅速的进步,但它们仍然可以产生包含伪像且听起来不自然的输出。我们提出了一种新颖的语音增强方法,旨在通过优化言语的关键特征来提高增强信号的知觉质量和自然性。我们首先确定与语音质量良好相关的关键声学参数(例如抖动,微光和光谱通量),然后提出目标函数,旨在减少相对于这些功能的清洁语音和增强语音之间的差异。完整的声学特征是扩展的Geneva声学参数集(EGEMAPS),其中包括与语音感知相关的25种不同属性。考虑到这些功能计算的非差异性质,我们首先构建了EGEMAP的可区分估计器,然后使用它们来微调现有的语音增强系统。我们的方法是通用的,可以应用于任何现有的基于深度学习的增强系统,以进一步改善增强的语音信号。对深噪声抑制(DNS)挑战数据集进行的实验结果表明,我们的方法可以改善最新的基于深度学习的增强系统。
translated by 谷歌翻译
这项工作为2022年ICML表达性发声挑战exvo-multitask轨道的人声爆发音频介绍了对年龄,原产国和情感的同时估计的多任务方法。选择的方法利用了光谱 - 周期调制和自我监督的特征的组合,然后是在多任务范式中组织的编码器编码网络。我们通过检查独立的任务特定模型和联合模型来评估所构成的任务之间的互补性,并探索不同特征集的相对强度。我们还引入了一种简单的分数融合机制,以利用此任务的不同特征集的互补性。我们发现,与光谱 - 周期性接收场的得分融合结合进行了强大的数据预处理,而Hubert模型达到了我们最佳的EXVO-Multitask测试评分为0.412。
translated by 谷歌翻译
视觉接地是一项旨在根据自然语言表达方式定位目标对象的任务。作为一项多模式任务,文本和视觉输入之间的特征相互作用至关重要。但是,先前的解决方案主要在将它们融合在一起之前独立处理每种模式,在提取视觉功能时,这并不能充分利用相关的文本信息。为了更好地利用视觉接地中的文本视觉关系,我们提出了一个查询条件的卷积模块(QCM),该模块(QCM)通过将查询信息纳入卷积内核的产生中来提取查询感知的视觉特征。借助我们提出的QCM,下游融合模块接收到更具歧视性的视觉特征,并专注于表达式中描述的所需对象,从而导致更准确的预测。在三个流行的视觉接地数据集上进行的广泛实验表明,我们的方法可以达到最新的性能。此外,当直接用于预测而无需进一步的多模式融合时,查询感知的视觉特征足以实现与最新方法可比的性能。
translated by 谷歌翻译